导语
随着AI技术的不断进步,大规模的pre-training模型已经在自然语言处理及相关领域取得了突破性进展,其应用范围正不断扩展,尤其是在生命科学领域。在此基础上,郝敏升博士开发了一个名为scFoundation的大规模预训练模型,该模型具有惊人的1亿参数规模,并经过对超过5000万个人类单细胞转录组数据的训练。这个模型的独特之处在于,它不仅具备前所未有的规模和基因维度,还为单细胞转录组学提供了丰富的分子特征观测数据。scFoundation的成功表现,证明了它在多种生物医学任务中的卓越性能,包括基因表达增强、组织药物反应预测、单细胞药物反应分类等。与此同时,许涵文博士合作开发了一款名为BioTranslator的模型,该模型通过将自由文本翻译为非文本生物数据实例,实现了更广泛的生物数据标注和交互,使得科学家们能够更自由地探索生物数据,将多模态的数据识别为文本。在本期介绍中,我们邀请了清华大学自动化系生物信息学部博士研究生郝敏升和华盛顿大学计算机学院的博士研究生许涵文深入探讨这两个重要工具的原理和应用,以及它们未来的潜力。
集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学 ”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会从2023年8月20日开始,每周日早上 9:00-11:00 线上举行,持续时间预计8周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
细胞内基因的表达是生物学中一个极其重要的过程,它决定了细胞的功能和特性。这种基因表达的复杂模式是细胞"语言"的基础,对于生物医学研究和医学应用具有巨大的潜力。为了更深入地理解细胞的"语言",科学家们需要转录组数据的帮助,这些数据会记录细胞内基因的表达情况和细胞间的差异表达,同时也会提供有关细胞功能和状态的关键信息。 然而,尽管转录组数据提供了丰富的信息,但其解释和利用仍然存在一些问题。这些问题集中在数据过于复杂,数据维度过高,数据集成和标准化困难以及数据的生物学解释困难上。而scFoundation正是针对这些问题的一项引人注目的工作。它专注于建立基于转录组的细胞"语言"基础模型。 scFoundation的独特之处在于其巨大的规模、丰富的训练数据以及卓越的性能。这一模型拥有1亿参数规模,并经过对超过5000万个人类单细胞转录组数据的深度训练,其中包括了2万个基因维度的信息。这使得scFoundation成为目前参数规模最大、基因维度最丰富、以及适用于最多细胞类型的模型之一。它的应用潜力广泛,不仅可以协助研究人员深入研究不同细胞类型及其在不同条件下的基因表达模式,还在众多生物医学任务中取得了显著的突破。 本次交流,我们将围绕scFoundation的构建过程和应用潜力,对转录组目前工作的前沿领域和未来方向进行探讨。 多语言翻译BioTranslator
在零样本生物医学分类中的应用
在生物医学研究中,生物数据的多样性和复杂性一直是研究人员所面临的挑战。零样本生物医学分类是指在没有先验标签信息的情况下对新的生物样本进行分类,这是一个极具挑战性的任务,但也具有重要的实际应用前景。它有助于识别以前未知的疾病或疾病亚型,为个性化医疗提供支持和预测潜在药物的效力和副作用,从而加速药物筛选过程。然而,目前的生物医学分类方法在处理零样本时存在一些困难。首先,现有的方法通常依赖于预先定义的有限词汇集,这限制了研究范围,因为它们无法很好地适应新的、未知的生物学概念。其次,多模态数据的整合也是一个复杂的问题,因为它需要将生物数据的不同模态(如基因表达、蛋白质互作、代谢数据等)融合在一起,以获取全面的理解。 为了解决这些问题,有了BioTranslator的诞生。 它是一种创新的多语言翻译工具,能够将用户编写的新概念文本描述翻译为非文本生物数据实例,实现了零样本生物医学分类。 它的核心思想是利用多语言翻译框架,将生物数据的多种模态翻译为文本,从而让我们能够使用自由文本与生物数据进行交互。 这一工具不仅能够仅凭文本描述来识别新的细胞类型,还可以扩展到其他生物医学任务,如蛋白质功能预测和药物靶点识别。 它的出现为解决零样本生物医学分类问题提供了一种创新方法,允许科学家们摆脱有限的词汇集的限制,通过自由文本描述来识别和解释新的生物学概念,从而加速了研究进展。 此外,BioTranslator还可以应对多模态数据的挑战,将不同类型的生物数据转化为文本形式,使研究更全面、更深入。 本次交流,我们将围绕BioTranslator的原理和应用,以及如何突破现有方法的限制展开交流,从而更深入地理解多模态数据,并探讨未来多模态数据研究的可能性。 应用1:蛋白质新功能类别预测
应用2:细胞新类型预测
应用3:药物-基因、基因-表型、基因通路-表型的零样本学习
郝敏升 ,目前博士四年级,就读于清华大学自动化系生物信息学部,导师为张学工教授。研究兴趣是开发生物组学算法,尤其是单细胞转录组和空间转录组学分析算法,为分析组学数据提供新的研究思路和方法。近期作为第一作者与百图生科合作完成了目前单细胞领域规模最大的基础模型scFoudation。
许涵文 是华盛顿大学计算机学院的一名二年级博士生,导师为Sheng Wang教授。他的研究兴趣包括科学文献挖掘,生物语言文本处理和应用,AI for Science。当前的研究成果发表在Nature Communications, AAAI等期刊和会议。
活动时间
2023年9月24日(本周日)上午10:00-12:00 线上会议室 扫码参与大模型与生物医学读书会,加入群聊,获取系列读书会回看权限,成为大模型与生物科学读书会的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动AI+Science社区的发展。 扫码参与大模型与生物医学读书会,加入群聊,获取系列读书会回看权限,成为大模型与生物科学读书会的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动AI+Science社区的发展。 • qBioTranslator: https://www.nature.com/articles/s41467-023-36476-2
• scFoundation: https://www.biorxiv.org/content/10.1101/2023.05.29.542705
• xTrimoGene: https://www.biorxiv.org/content/10.1101/2023.03.24.534055
• DeepCDR: DeepCDR: a hybrid graph convolutional network for predicting cancer drug response | Bioinformatics | Oxford Academic (oup.com)
• SCAD: Enabling Single‐Cell Drug Response Annotations from Bulk RNA‐Seq Using SCAD - Zheng - 2023 - Advanced Science - Wiley Online Library
• GEARS: Predicting transcriptional outcomes of novel multigene perturbations with GEARS | Nature Biotechnology
大模型与生物医学:
AI + Science第二季读书会启动
生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。 集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。 读书会从2023年8月20日开始,每周日早上 9:00-11:00 线上举行,持续时间预计8周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
详情请见:
大模型与生物医学:AI + Science第二季读书会启动
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science ”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。